其他
Nat Commun|增强的用于直接合成和单步逆合成的NLP的Transfermer模型
今天给大家介绍的是NATURE COMMUNICATIONS上有关数据增强的文章"State-of-the-art augmented NLP transformer models for direct and single-step retrosynthesis"
当同时对输入数据和目标数据进行增强时,可以观察到这种效果。在USPTO-50k测试数据集中,通过结合文本SMILES增强和束搜索算法,反应最大片段预测(从而确定经典逆向合成的主变换)的top-5准确率为84.8%。同样的方法用在预测USPTO-MIT测试集上表现更佳。在混合数据集上该模型top-1的准确率可达到90.6%,top-5的准确率 96.1%;在USPTO-MIT分离集上top-5的准确率可达到97%。并且,预测USPTO-full数据集一步逆合成反应的准确率也得到了很好的提升。经常出现的SMILES与预测结果有良好的相关性,可以作为反应预测质量的衡量指标。
1.研究背景
在Synthia™程序中,规则自动从原子映射的反应示例中提取。然而,自动规则没有考虑到分子中其他未定义的可能的反应中心。应用这种转换可能导致分子不能像预期的那样反应。提取这些规则的另一种方法是应用数据驱动的深度学习技术,该技术与机器学习方法相对应,即在原始数据上训练算法。训练结束后,网络通过其参数包含了相应输入的所有隐性编码的特征(规则)。对反应预测结果和逆合成的研究表明符号方法的可行性,其中反应被写成SMILES字符串,就像机器翻译一样。生成物用“source”表示,而反应物用“target”表示。 分子的SMILES表示方式是模棱两可的(虽然存在标准化过程),但已有研究证明,在训练和推理过程中使用一批随机(扩增)SMILES可以提高模型精度。作者仔细研究了各种增强机制,并表明在不同温度下,与标准束搜索(beam search,机器学习中常用到的一种搜索算法)推断和模型的评估相比,增强会有更好的性能。 作者研究的内容是预测单步逆合成,在更复杂的数据增强策略中,通过减少神经网络的过拟合,提高其准确性,从而在直接合成和逆合成方面都取得了最佳表现。训练模型的数据越复杂,就越能预测新的数据。此外,作者引入了一种新的测量MaxFrag精度的方法来预测最大片段(从而确定经典逆合成的主要变换)。
2.数据
xNR:产物为标准SMILES,对于反应物/试剂,只选择了一个可能的扩增SMILES。xNF:每个反应的第一个实例都包含标准的SMILES,而其他(N-1)个实例则针对输入(产物)和输出(反应物和试剂)数据进行了扩增。输出数据中SMILES的顺序没有改变。xNS:与xNF相同,但反应物/试剂中SMILES的顺序被打乱。xNM:与xNS相同,但也包含相同数量的逆(正向)反应,正向反应以“.”开头以区别于逆反应。
3 性能分析
4. 模型预测准确率
5. 结论
----------- End -----------
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或姓名-学校-职务/研究方向。
浙江工业大学智能制药研究院段宏亮教授:AI制药的现状、技术与挑战
Nat Commun|AI结合基因表达特征,从头生成类苗头化合物
浙工大智能制药研究院院长段宏亮|AI制药方兴未艾,未来可期
CHEM SCI|分子Transformer模型预测酶促反应
Transformer-CNN:用于 QSAR 建模和解释的先进工具
基于文本表示推断化学反应的实验步骤
基于AI的连续流反馈系统加速化学反应开发
使用数据驱动的分子连续表示进行自动化学设计
图卷积神经网络用于解决小规模反应预测
数据增强和迁移学习策略解决小数据集化学反应预测问题
Drug Discov Today|药物研发风险地图